Visualisation

Serge-Étienne Parent

01 février 2019

Plan

  1. Les graphiques: avant de publier
  2. Choisir le bon type de graphique
  3. L’approche impérative et l’approche déclarative
  4. Visualisation en R
  5. Fermeture

Objectifs spécifiques

À la fin de ce chapitre, vous

  • comprendrez l’importance de l’exploration des données
  • comprendrez les guides généraux pour créer un graphique approprié
  • comprendrez la différence entre les modes impératifs et déclaratifs pour la création de graphique
  • serez en mesure de créer des nuages de points, lignes, histogrammes, diagrammes en barres et boxplots en R
  • saurez exporter un graphique en vue d’une publication

1. Les graphiques: avant de publier

Un outil d’exploration

Animation montrant la progression du jeu de données Datasaurus pour toutes les formes visées. Source: Same Stats, Different Graphs: Generating Datasets with Varied Appearance and Identical Statistics through Simulated Annealing.

Cinq qualités d’un bon graphique

  1. Elle est véritable, puisqu’elle est basée sur une recherche exhaustive et honnête.
  2. Elle est fonctionnelle, puisqu’elle constitue une représentation précise des données, et qu’elle est construite de manière à laisser les observateurs.trices prendre des initiatives conséquentes.
  3. Elle est attrayante et intrigante, et même esthétiquement plaisante pour l’audience visée - les scientifiques d’abord, mais aussi le public en général.
  4. Elle est pertinente, puisqu’elle révèle des évidences scientifiques autrement difficilement accessibles.
  5. Elle est instructive, parce que si l’on saisit et accepte les évidences scientifiques qu’elle décrit, cela changera notre perception pour le mieux.

Qualité 1. Honnêteté

## ── Attaching packages ────────────────────────────────────────────────────────────────────────────────────────────────────────────────── tidyverse 1.2.1 ──
## ✔ ggplot2 3.1.0     ✔ purrr   0.3.0
## ✔ tibble  2.0.1     ✔ dplyr   0.7.8
## ✔ tidyr   0.8.2     ✔ stringr 1.3.1
## ✔ readr   1.3.1     ✔ forcats 0.3.0
## ── Conflicts ───────────────────────────────────────────────────────────────────────────────────────────────────────────────────── tidyverse_conflicts() ──
## ✖ dplyr::filter() masks stats::filter()
## ✖ dplyr::lag()    masks stats::lag()
## Parsed with column specification:
## cols(
##   year = col_double(),
##   temp = col_double(),
##   loess = col_double()
## )

Qualité 2. Fonctionnelle

Source: Slidebazaar

Qualité 3. Visuel

Qualité 4. Pertinence

Source: GIEC, Bilan 2001 des changements climatiques : Les éléments scientifiques

Qualité 5. Instructive

Source: Messerli, (2012)

3. Choisir le bon type de graphique

  1. Mettez de l’ordre dans vos données.
  2. Réfléchissez au message que vous désirez transmettre.
  3. Essayez différentes représentations.
  4. Testez le résultat.

4. Différentes approches

Impérative. Comment placer l’information sur une canevas. Exemple: R-base, Matplotlib (Python), Excel.

Déclarative. Spécifier quoi afficher. Exemple: ggplot2, altair (Python).

La visualisation déclarative vous permet de penser aux données et à leurs relations, plutôt que des détails accessoires.

Jake Vanderplas, Declarative Statistical Visualization in Python with Altair (ma traduction)

5. Visualisation en R

  • R-base
  • ggplot2 (et ses nombreuses extensions)
  • plotly (et ggplotly)

R-base

–> basculer vers les notes de cours.

ggplot2

  1. Les données. Votre tableau est bien sûr un argument nécessaire pour générer le graphique.
  2. Les marqueurs. Un terme abstrait pour désigner les points, les lignes, les polygones, les barres, les flèches, etc.
  3. Les attributs encodés. La position, la dimension, la couleur ou la forme que prendront les géométries. En ggplot2, on les nomme les aesthetics.
  4. Les attributs globaux. Les attributs sont globaux lorsqu’ils sont constant (ils ne dépendent pas d’une variable). Les valeurs par défaut conviennent généralement, mais certains attributs peuvent être spécifiés: par exemple la forme ou la couleur des points, le type de ligne.
  5. Les thèmes. Le thème du graphique peut être spécifié dans son ensemble, c’est-à-dire en utilisant un thème prédéfini, mais l’on peut modifier certains détails.

ggplot2

–> basculer vers les notes de cours.

6. Fermeture